在压缩的持续潜在空间中有效的音频表示对于生成音频建模和音乐信息检索(MIR)任务至关重要。但是,某些现有的音频自动编码器有局限性,例如多阶段训练程序,缓慢的迭代采样或低重建质量。我们介绍了Music2Latent,这是一种音频自动编码器,通过利用一致性模型来克服这些限制。MUSIC2LATENT在单一端到端的训练过程中将样品编码为压缩的连续延伸空间,同时实现高保真单步重建。关键的创新包括通过频率自我注意来调节各个级别的UPS采样编码器输出的一致性模型,使用频率自我注意力来捕获远距离频率依赖性,并采用频率学习的缩放量表来处理不同噪声水平上跨频率的变化价值分布。我们证明,Music2Latent在声音质量和重建精度方面的表现优于现有的连续音频编码器,同时使用其潜在表示在下游MIR任务上实现竞争性能。对我们的知识,这代表了训练端到端一致性自动编码器模型的首次成功尝试。[此链接]下可用的重量可用。1
主要关键词